POMDP与MDP的区别？部分可观测如何理解？

2023-03-26 18:22| 来源: 网络整理| 查看: 265

举个例子，有A,B 两种状态。Agent一开始可能在两种状态中的一种，并且有两种可能的action, 要么stay, 要么move。在A的时候utility0 为0, B的时候utility为1。从A出发只有0.9的概率会达到B，0.1的概率出发然后回到A，从B出发同理。

MDP：

已知agent一开始是在状态A，

Q(A, stay) = Uo + [0.9 * 0 + 0.1 * 1] = 0 + 0.1 = 0.1

Q(A, move) = Uo + [0.1 * 0 + 0.9 * 1] = 0 + 0.9 = 0.9

Umax = Max( Q(A, stay), Q(A, move) ) = move

已知agent一开始是在状态B，

Q(B, stay) = Uo + [0.9 * 1 + 0.1 * 0] = 0.9 + 1 = 1.9

Q(B, move) = Uo + [0.1 * 1 + 0.9 * 0] = 0.1 + 1 = 1.1

Umax = Max( Q(B, stay), Q(B, move) ) = stay

POMD: 由于信息不完全，可能一开始agent并不知道自己在A还是在B，于是需要给分别可能在A，或者B的可能性赋予权重，

权重：假设有0.4的可能一开始在A，0.6的可能性一开始在B。

U (stay) = 0.4 * 0.1 + 0.6 * 1.9 = xxx

U (move) = 0.4 * 0.9 + 0.6 * 1.1 = xxx

【本文地址】

今日新闻